最新研究速递|魏忠钰老师在CSSNLP 2021作《言行结合的议员建模方法研究》报告
* “中美友好互信合作计划”是由复旦发展研究院和丰实集团共同打造的中美关系研究的学术平台
2021年11月26日
中国自然语言处理学生研讨会
中国自然语言处理学生研讨会(The China Student Symposium on Natural Language Processing, CSSNLP )是为自然语言处理研究领域内的中国青年学者提供的一个学术交流平台。第二届中国自然语言处理学生研讨会(CSSNLP 2021)于2021年11月26日在线上举办。复旦大学数据智能与社会计算实验室(Fudan DISC)魏忠钰老师接受邀请在第二届中国自然语言处理学生研讨会担任特邀嘉宾进行报告《言行结合的议员建模方法研究》。本届大会由中国中文信息学会(CIPS)青年工作委员会主办,智源社区承办,由PaperWeekly、MLNLP(机器学习算法与自然语言处理)社区提供媒体支持。相关研究报告为中美友好互信合作计划支持课题成果之一。议员建模背景
议员建模是计算政治学的重要研究课题,旨在通过量化的方法对议员行为进行刻画。国会(Congress)是美国的最高立法机构,采取参议院(Senate)、众议院(House)两院制。议案一般经过一个或多个议员发起、委员会审议、全院大会审议等程序,经两院投票通过后交由总统签署,最终形成法律。对议案的点名投票(Roll Call Vote)是一种清晰直接的立场表达方式,投票数据也因此常被用于议员建模。议员对于议案的投票包括赞成(Yea)、反对(Nay)和弃权(Not Vote)三种立场。
本次报告的主要内容
当前议员建模研究很大程度上依赖于投票数据,学者们基于议员的历史投票行为对其政治立场进行学习和估计。但基于投票的数据的建模方法存在两个局限性。第一,缺乏对建模结果的证据支撑,没有途径获取议员行为背后的动机和缘由,无法捕捉其政治观点。第二,缺乏对一般性话题的泛化能力,模型无法对议员在大众话题的立场进行推理。本次报告介绍了基于投票行为的议员建模以及我们课题组针对这些问题提出的结合投票行为和公开言论的议员建模框架。
(主要论文合作者)
基于投票行为的议员建模
理想点模型(ideal point model)是议员投票预测中的经典模型。其思想是将议员和议案投射到同一个政治空间,通过距离来刻画议员对议案的偏好。通过距离相关的效用函数来表示议员支持或反对议案的概率,通过MLE求解议员和议案在此空间中的理想点。然而这种方法只使用的历史投票信息进行拟合,无法泛化到新的议案上进行预测。
为了解决这个问题,一些学者在理想点模型的基础上扩充议案文本的信息,使用文本回归、主题模型等方法学习议案在贝叶斯理想点模型当中的参数,使得新的议案也能被表示在当前空间中,并且有一定的可解释性(因为语言也是政治倾向的一种表现形式)。但是这种依赖于历史投票记录的方法很难用于新议员的投票预测,没有相关的历史信息可以学习到他们的理想点,因此大部分工作都是在相同的议员集合上进行训练和测试,模型的应用存在一定的局限性。
结合议员关系和投票行为的议员建模
No.
01
引入议员背景信息和网络关系
之前的工作仅依赖于投票数据本身,没有利用复杂的背景信息,在泛化上存在一定局限性。我们提出了一个通用的、能利用大量背景信息的基于深度学习的框架,主要包括基于图卷积神经网络的议员表示学习、基于长短时记忆网络的议案表示学习、基于三元组损失函数的联合表示学习、基于投票结果分布的投票结果预测四个部分。我们根据爬取得到的议案发起人信息构建了议员的关系网络,使用图卷积网络对议员表示进行更新。
No.
02
使用三元组损失
根据距离进行排序
No.
03
议员投票预测数据集构建
为了对投票行为进行全面的探究,我们从美国国会官网上收集了1993年到2018年的议案、议员以及投票记录数据,包含215,857条议案, 2,347个议员和2,234,082条投票记录。其中议员信息包含ID、党派、所属州等,议案信息包括标题、描述等文本信息及发起人列表。投票记录是议员对议案的投票结果,包含支持、反对、弃权三种立场。本数据集已公开。
No.
04
实验
(1)整体实验结果
我们在构建的投票数据集上对模型的性能进行了验证,每5年的数据作为单独的一个实验集合,其中前4年作为训练集,最后一年作为测试集。选择点名投票任务中最经典的理想点模型(Clinton et al., 2004)和基于议案文本的理想点模型(Gerrish et al., 2012)进行对比,并对模型中的模块使用不同的算法进行对比。实验结果表明使用图卷积神经网络将议员的关系信息引入到模型是有效的,基于联合表示学习和排序思想的预测能够达到最好的效果。除此之外,LSTM+party在建模议员时只使用党派信息就能达到很有竞争力的效果,说明了党派信息对于投票的重要性。
言行结合的议员建模
以及投票行为预测
No.
01
结合投票行为和公开言论
进行议员建模
投票仅仅是议员进行立场表达的一种方式,对于议员的形象刻画并不全面。一方面,投票可能受到党派的压力影响,并不能反映全面的立场;另一方面,我们也很难从投票中获知议员立场背后的原因和动机,投票相同的议员在具体的观点和言论上有所差异,而过去的方法学习到的议员表示并不能体现议员之间的这种细微差别。
我们观察到议员在推特上发言时会使用框架(Framing)策略,即讨论话题时不直接表达支持\反对的立场,而是通过强调事物的某一方面(例如图中的生命、权利)来引导读者去偏向自己的立场。在堕胎禁令上投支持票的议员在推特上更强调保护生命,而投反对票的议员则注重于维护女性做选择的权利。推特话题标签(Hashtag)是一种表达观点的简短文本(例如#life, #theyfeelpain),之前的研究和我们的数据分析表明,大部分话题标签是有极性的(即发布某个标签就已经带有一定的立场)。因此我们尝试从话题标签的使用入手描绘议员在推特上的言论立场,提出了一个话题标签使用预测任务(即给定一个话题标签的描述和一个议员,预测议员是否会使用这个标签),与之前的投票预测任务进行联合学习。
No.
02
基于关系图卷积网络的
议员表示学习框架
为了结合两个平台的信息,我们将整个立法场景视作一个跨平台信息的异质图,包含议员、议案和推特话题标签三种节点,以及节点之间的6种关系。使用议员的背景信息初始化议员表示,使用议案和话题的文本初始化议案和话题标签的表示。使用关系图卷积神经网络更新节点的表示,将投票预测和话题标签使用预测视作一种关系预测任务。使用多任务框架进行联合学习,除了投票预测的交叉熵损失、话题标签使用预测的交叉熵损失之外,我们还使用了无监督的近邻损失来使得社交网络上相互关注的议员表示更加接近,没有关注的议员更加疏远。
No.
03
双平台数据集构建
No.
04
实验
(3)议员言行一致吗我们计算了议员使用话题标签的极化程度Hashtag Valence(Conover et al., 2011)和投票行为的极化程度DW-NOMINATE(Lewis and Poole, 2003)分数的第一维的相关性,发现议员们的言行总体是较为一致的。进行错误分析时我们发现某些议员在个别议案中存在着言行不一致的行为,根据溢出效应(Spell et al., 2020),这可能是一种为了获取选民支持而采取的策略,会给我们的模型造成干扰,导致错误的预测。
总结
在这次报告中,魏老师带我们回顾了基于投票行为的议员建模方法和针对其局限性提出的引入议员关系的表示学习框架,并且结合议员的公开言论进一步刻画更全面的议员形象,构建了相应的数据集进行研究。社会科学、政治学是一个交叉学科的宝藏,NLP技术在其中有很大的应用空间。面对现有的研究,解决数据少、任务杂的问题是一个不错的切入点。
报告相关下载:
报告讲义下载:
https://pan.baidu.com/s/16UXzQjv1DWpfU-1dmQhgDQ 提取码:3uta
议题数据集:
http://fudan-disc.com/resource/public/publication/25/25-yang-ijcai-2020-data.zip
议员推特数据集:
http://fudan-disc.com/resource/public/publication/41/twitter_dataset.txt
相关推送:
参考文献:
[1] Clinton, J. , & Rivers, J. D. . (2004). The statistical analysis of roll call data. American Political Science Review.
[2] Gerrish, S. , & Blei, D. M. . (2011). Predicting Legislative Roll Calls from Text. Proceedings of the 28th International Conference on Machine Learning, ICML 2011, Bellevue, Washington, USA, June 28 - July 2, 2011. Omnipress.
[3] Gerrish, S. M. , & Blei, D. M. . (2012). How they vote: issue-adjusted models of legislative behavior. Advances in Neural Information Processing Systems, 4, 2753-2761.
[4] Yang, Y. , Lin, X. , Lin, G. , Huang, Z. , & Wei, Z. . (2020). Joint Representation Learning of Legislator and Legislation for Roll Call Prediction. Twenty-Ninth International Joint Conference on Artificial Intelligence and Seventeenth Pacific Rim International Conference on Artificial Intelligence.
[5] Mou, X., Wei, Z., Chen, L., Ning, S., He, Y., Jiang, C., & Huang, X. (2021). Align Voting Behavior with Public Statements for Legislator Representation Learning. ACL/IJCNLP.
[6] M.D. Conover, Ratkiewicz, J. , Francisco, M. , Goncalves, B. , & Menczer, F. . (2011). Political Polarization on Twitter. Proceedings of the Fifth International Conference on Weblogs and Social Media, Barcelona, Catalonia, Spain, July 17-21, 2011. DBLP.
[7] Lewis, J. B. , & Poole, K. T. . (2003). Measuring bias and uncertainty in ideal point estimates via the parametric bootstrap. SSRN Electronic Journal.
[8] Spell, G., Guay, B.M., Hillygus, S., & Carin, L. (2020). An Embedding Model for Estimating Legislative Preferences from the Frequency and Sentiment of Tweets. EMNLP.
供稿|牟馨忆、魏忠钰
欢迎关注本公众号!如有投稿,请直接发至xinyanyan@fudan.edu.cn或zhongmeihuxin@163.com。一经录用将有稿费奉上。
“中美友好互信合作计划”是由复旦发展研究院和丰实集团共同打造的中美关系研究的学术平台,该平台通过课题研究和精英讲坛的联动运作方式,力求以最快的速度、最高的学术权威分析中美关系的热点问题。